Домены и профили

Задание 2

В Pfam я взяла двудоменную архитектуру, встречающуюся в 48 белковых последовательностях и представленную у бактерий. Она состоит из домена COX15-CtaA и UbiA.

*Таблица 1.* *Иноформация о доменах*
ID	AC	Название	Число находок в Uniprot
PF02628	COX15-CtaA	Cytochrome oxidase assembly protein	4464
PF01040	UbiA	UbiA prenyltransferase	18222

В базе данных Uniprot я искалабактериальные белки, содержащие выбранные домены. Всего находок оказалось 238.

Таблица белков

Рис 1. Доменная архитектура.

Задание 3

Была построена гистограмма длин белков. Большинство длин лежат в диапазоне [599;638]. Значит эти значения будем считать характерной длиной белка.

Рис 2. Гистограмма длин белков.

Я выбрала 39 белков различных семейств. Всего в таблице было 12 семейств. Выборку можно увидеть на картинке.

Рис 3. Отобранные организмы.

Из Uniprot я взяла последовательности выбранных белков и выровняла с помощью muscle. Команада muscle -in seq_pr9.fasta -out align_seq_pr9.fasta.

Выравнивание

До N-концевого блока я удалила 45 нуклеотидов, а для C-концевого удаление не потребовалось. Также я удалила две последовательности, так как они давали длинные вставки.

Рис 4. Фрагмент выравнивания с N-консервативного блока.

Выравнивание JalView

Для построеня HMM профиля я воспользовалась командой hmm2build -g pr9_build align_pr9.fasta для построения профиля по выравниванию и hmm2calibrate pr9_build для калибровки.

Профиль после калибровки

Для проверки профиля я нашла в Uniprot белки, содержащие только первый(pf02628) из двуз доменов. Нашлось 20099 таких белков. Я использовала команду hmm2search --domE 0.1 pr9_build 1_domain.fasta > hmm_res.fasta для поиска белков с двухдоменной архитектурой по профилю выравнивания(порог e-value=0.1).

Hmm_res.fasta

Excel таблица

*Из-за того, что я делала таблицу на маке, при эскпорте в формат xslx некоторые формулы потерялись и остались только цифры. Но, конечно, без формул я не сделала эту таблтицу, так что надеюсь на понимание)*

Рис 5. Roc-кривая. С помощью нее я выбрала точку 0.97 c весом 232.

Рис 6. График распределения весов. По нему видим, что выбранная ранее точка с весом 232 соответсвует точке на этом графике, в которой резко начинается спад.

На основе предыдущих данных сделана таблица предсказаний.